Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés Apprendre une extension sélective du passé

نویسندگان

  • Alain Dutech
  • Manuel Samuelides
چکیده

We present a new algorithm that extends the Reinforcement Learning framework to Partially Observed Markov Decision Processes (POMDP). The main idea of our method is to build a state extension, called exhaustive observable, which allow us to define a next processus that is Markovian. We bring the proof that solving this new process, to which classical RL methods can be applied, brings an optimal solution to the original POMDP. We apply the algorithm built on that proof to several examples to test its validity and robustness. MOTS-CLÉS : théorie de la décision, agent intelligent, apprentissage par renforcement, POMDP, extension d’état

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Apprentissage par Renforcement : Au delà des Processus Décisionnels de Markov (Vers la cognition incarnée)

dernières années dans des contextes mono et multi-agents, mais aussi robotique. L'analyse de ces travaux et de l'état de l'art du domaine me conforte dans l'idée que la principale diculté pour l'agent est bien celle de trouver des représentations adaptées, utiles et pertinentes. J'argumente que l'on se retrouve face à une problématique fondamentale de la cognition, intimement liée aux problèmes...

متن کامل

Classification structurée pour l'apprentissage par renforcement inverse

Résumé : Cette contribution traite du problème de l’apprentissage par imitation par le biais de l’apprentissage par renforcement inverse (ARI). Dans ce contexte, un expert accomplit une tâche qu’un agent artificiel doit essayer de reproduire. L’ARI part du postulat que l’expert optimise avec succès une fonction de récompense ; le problème consiste à deviner cette fonction à partir de traces du ...

متن کامل

Apprentissage actif dans les processus décisionnels de Markov partiellement observables L'algorithme MEDUSA

RÉSUMÉ. Nous cherchons à adapter le cadre des Processus Décisionnels de Markov Partiellement Observables (POMDP) aux réalités de la robotique, pour établir une méthode qui effectue une prise de décision et un apprentissage optimaux lorsque l’agent ne dispose que d’un modèle approximatif d’un environnement non stationnaire. La méthode suppose l’existence d’un opérateur extérieur (oracle), capabl...

متن کامل

Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre. Étude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving

RÉSUMÉ. Cet article présente les résultats expérimentaux obtenus avec une architecture originale permettant un apprentissage générique dans le cadre de processus décisionnels de Markov factorisés observables dans le désordre (PDMFOD). L’article décrit tout d’abord le cadre formel des PDMFOD puis le fonctionnement de l’algorithme, notamment le principe de parallélisation et l’attribution dynamiq...

متن کامل

Apprentissage de la structure des processus de décision markoviens factorisés pour l’apprentissage par renforcement

Des algorithmes de planification récents issus de la théorie de la décision sont capables de trouver des politiques optimales ou quasi-optimales sur des problèmes de grande taille en utilisant le formalisme des processus de décision markoviens factorisés (FMDPs). Cependant, ces algorithmes ont besoin d’une connaissance a priori de la structure des problèmes qu’ils résolvent. Dans cette contribu...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Revue d'Intelligence Artificielle

دوره 17  شماره 

صفحات  -

تاریخ انتشار 2003